AP News | 2025-06-12 | 15:16:23

AI чатботите се нуждаят от повече книги, от които да се поучите. Тези библиотеки отварят своите стекове

Кеймбридж, Масачузетс (AP) - Всичко, което в миналото е споделило в интернет, е единствено началото на преподаването на изкуствен интелект за човечеството. Техническите компании в този момент се впускат в по -старо вместилище на знанието: Библиотечните стекове.

Почти един милион книги, оповестени още през 15 -ти век - и на 254 езика - са част от сбирката на университета в Харвард, която се пуска на откривателите на AI в четвъртък. Also coming soon are troves of old newspapers and government documents held by Boston’s public library.

Cracking open the vaults to centuries-old tomes could be a data bonanza for tech companies battling lawsuits from living novelists, visual artistsand others whose creative works have been scooped up without their consent to train AI chatbots.

“It is a prudent decision to start with public domain Данни, тъй като това е по -малко спорно сега от наличието, което към момента е под авторски права “, споделя Бъртън Дейвис, заместител общоприет консултант в Microsoft.

Дейвис сподели, че библиотеките също имат „ обилни количества забавни културни, исторически данни и езикови данни “, които липсват от последните няколко десетилетия на онлайн мнения, от които AI чатботите са научили най -вече.

Подкрепен от „ неограничени дарове “ от Microsoft и Chatgpt Maker Openai, Инициативата за институционални данни в Харвард работи с библиотеки по целия свят за това по какъв начин да създадат своите исторически сбирки, подготвени по метод, който също е от изгода за библиотеките и общностите, които служат.

; „ Библиотекарите постоянно са били шефове на данни и шефове на информация. “

Новоиздаденият набор от данни на Харвард, институционални книги 1.0, съдържа повече от 394 милиона сканирани страници хартия. Едно от по -ранните творби е от 1400 -те - ръкописни мисли на корейски художник за развъждането на цветя и дървета. Най -голямата централизация на творби е от 19 век, по тематики като литература, философия, закон и селско стопанство, всички той подробно непокътнати и проведени от генерации библиотекари.

Обещава да бъде берекет за разработчиците на AI, които се пробват да подобрят точността и надеждността на техните системи.

„ Голяма част от данните, употребявани в образованието на AI, не са пристигнали от истински източници “, съобщи изпълнителният шеф на самодейността за данни Грег Лепърт, който също е основен технолог в Berkman Klein Center за Internet & Society. Тази сбирка от книги се връща „ назад към физическото копие, което беше сканирано от институциите, които фактически събраха тези предмети “, сподели той.

Преди Chatgpt да провокира комерсиален AI Frenzy, множеството откриватели на ИИ не са мислили доста за произхода на пасажите на текста, които са издърпали от Wikipedia, от форумите на обществените медии като престанили и от време на време от Deep Repository of Pirited Forums. Те просто се нуждаеха от доста от това, което компютърните учени назовават жетони - единици данни, всеки от които може да съставлява парче от дума.

Новата сбирка за образование на AI на Харвард има почти 242 милиарда жетона, което е мъчно за хората да схванат, само че въпреки всичко е единствено капка от това, което се подава в най -модерните AI системи. Мета на компанията -майка на Фейсбук, да вземем за пример, съобщи, че най -новата версия на своя огромен език на AI е подготвен на повече от 30 трилиона жетона, изтеглени от текст, изображения и видеоклипове.

Meta също се бори със правосъден развой от комика Сара Силвърман и други оповестени създатели, които упрекват компанията, че е откраднала книгите си от „ Библиотеки на сенките “ на пиратски творби.

Сега, с някои запаси, същинските библиотеки се изправя. 400-годишната библиотека на Бодлианската библиотека на Оксфорд, която цифровизира редки текстове и употребява AI, с цел да им помогне да ги препишете.

Когато компанията за първи път се обърна към обществената библиотека в Бостън, една от най-големите в Съединени американски щати, библиотеката даде да се разбере, че всяка информация, която е цифровизирана, ще бъде за всички, сподели Джесика Параклис, нейният шеф на цифровите и онлайн услугите.

„ Openai имаше този интерес към големи количества от данни за образование. Имаме интерес към големи количества цифрови обекти. Така че това е единствено случай, че нещата се подравняват “, сподели Чапел.

Дигитализацията е скъпо. Това е старателна работа, да вземем за пример, библиотеката на Бостън да сканира и лекува десетки вестници на френската езика на Нова Англия, които бяха необятно прочетени в края на 19 и началото на 20 век от канадските имигрантски общности от Квебек. Сега, когато подобен текст се употребява като данни за образование, той оказва помощ на банковите планове, които библиотекарите желаят да създадат по този начин или другояче.

„ Ние бяхме доста ясно, че„ ей, ние сме обществена библиотека “, сподели Чапел. „ Нашите сбирки се организират за публично прилагане и всичко, което цифровизирахме като част от този план, ще бъде обществено притежание. “

Колекцията на Харвард към този момент беше цифровизирана от 2006 година за различен софтуерен колос, Гугъл, в своя спорен план за основаване на онлайн библиотека за търсене от повече от 20 милиона книги.

Гугъл прекара години, побеждавайки правни провокации от създателите в неговата онлайн библиотека с книги, които включват доста по -нови и предпазени творби. Най -накрая беше уредено през 2016 година, когато Върховният съд на Съединени американски щати остави по -ниските правосъдни решения, които отхвърлиха исковете за нарушение на авторски права.

Сега, за първи път Гугъл работи с Харвард за добиване на размери на публично притежание от Гугъл Books и почисти пътя за стартирането им на AI разработчиците. Защитата на авторските права в Съединени американски щати нормално не престават 95 години и по-дълги за звукови записи.

Колко потребно ще бъде всичко това за идващото потомство AI принадлежности, остава да се види, че данните се споделят в четвъртък на платформата за прегръщане на лицето, която е хазаин на набори от данни и модели на AI с отворен код, които всеки може да изтегли.

Колекцията на книги е по -езиково разнообразна от типичните източници на данни за AI. По -малко от половината томове са на британски език, макар че европейските езици към момента преобладават, изключително немски, френски, италиански, испански и латински.

Колекция от книги, пронизана през 19 век, може да бъде „ извънредно сериозна “ за напъните на софтуерната промишленост да построи сътрудници, които могат да възнамеряват и разсъждават, както и хората, споделя Лепърт.

„ В един университет имате доста педагогика към това какво значи да разсъждавате “, сподели Лепърт. „ Имате доста научна информация за това по какъв начин да организирате процеси и по какъв начин да организирате разбори. “

В същото време има и доста остарели данни, от развратни научни и медицински теории до расистки разкази.

„ Когато се занимавате с подобен огромен набор от данни, има някои комплицирани проблеми към нездравословното наличие и език “, споделя Кристи Мук, координатор в лабораторията за нововъведения на Харвард, който съобщи, че самодейността се пробва да даде насоки за смесването на рисковете от потреблението на данните, с цел да „ оказват помощ да вземат личните си осведомени решения и да употребяват отговорно. Associated Press и Openai имат съглашение за лицензиране и технологии, което разрешава достъп на OpenAI до част от текстовите архиви на AP.

Източник: apnews.com